Variantie vinden met Python |Ingebouwd

2022-07-15 19:56:19 By : Ms. Alisa Xiong

Eric Kleppen is softwareproductanalist II bij Infinite Campus.Eric Kleppen is softwareproductanalist II bij Infinite Campus.Variantie is een krachtige statistiek die wordt gebruikt bij gegevensanalyse en machine learning.Het is een van de vier belangrijkste maten van variabiliteit, samen met bereik, interkwartielbereik (IQR) en standaarddeviatie.Het begrijpen van variantie is belangrijk omdat het u inzicht geeft in de spreiding van uw gegevens en kan worden gebruikt om verschillen in steekproefgroepen te vergelijken of belangrijke modelleringskenmerken te identificeren.Variantie wordt ook gebruikt bij machine learning om veranderingen in modelprestaties te begrijpen als gevolg van het gebruik van verschillende voorbeelden van trainingsgegevens.Variantie berekenen is eenvoudig met Python.Voordat ik in de Python-code duik, leg ik eerst uit wat variantie is en hoe je die kunt berekenen.Aan het einde van deze tutorial zul je beter begrijpen waarom variantie een belangrijke statistiek is, samen met verschillende methoden om deze te berekenen met Python.Meer zelfstudies over datawetenschap Hoe u uitschieters kunt vinden met IQR met PythonVariantie is een statistiek die spreiding meet.Een lage variantie geeft aan dat de waarden over het algemeen vergelijkbaar zijn en niet veel afwijken van het gemiddelde, terwijl een hoge variantie aangeeft dat de waarden verder van het gemiddelde liggen.U kunt variantie gebruiken op een steekproefset of op de gehele populatie, aangezien de berekening alle gegevenspunten in de gegeven set omvat.Hoewel de berekening enigszins verschilt wanneer u naar een steekproef versus populatie kijkt, kunt u de variantie berekenen als het gemiddelde van de gekwadrateerde verschillen van het gemiddelde.Aangezien de variantie een kwadratische waarde is, kan deze moeilijk te interpreteren zijn in vergelijking met andere maten van variabiliteit, zoals standaarddeviatie.Hoe dan ook, het kan nuttig zijn om de variantie te beoordelen;dit kan het voor u gemakkelijker maken om te beslissen welke statistische tests u met uw gegevens wilt gebruiken.Afhankelijk van de statistische tests kunnen ongelijke variantie tussen steekproeven de resultaten scheeftrekken of vertekenen.Een van de populaire statistische tests die variantie toepast, wordt de variantieanalyse (ANOVA) -test genoemd.Een ANOVA-test wordt gebruikt om te meten of een van de groepsgemiddelden significant van elkaar verschilt bij het analyseren van een categorische onafhankelijke variabele en een kwantitatieve afhankelijke variabele.Stel dat u bijvoorbeeld wilt analyseren of het gebruik van sociale media invloed heeft op het aantal uren slaap.U kunt het gebruik van sociale media onderverdelen in verschillende categorieën, zoals laag gebruik, gemiddeld gebruik en hoog gebruik, en vervolgens een ANOVA-test uitvoeren om te peilen of er statistische verschillen zijn tussen de groepsgemiddelden.De test kan uitwijzen of resultaten worden verklaard door groepsverschillen of individuele verschillen.Meer van ingebouwde datawetenschappers die kwartielen berekenen: een stapsgewijze uitlegHet berekenen van de variantie voor een dataset kan verschillen op basis van het feit of de set de gehele populatie of een steekproef van de populatie is.De formule voor het berekenen van de variantie van een hele populatie ziet er als volgt uit:Een uitleg van de formule:Laten we, aan de hand van een voorbeeldreeks van getallen, de berekening stap voor stap doornemen.Bereken afwijkingen van het gemiddelde door het gemiddelde van elke waarde af te trekken.Maak voor elke afwijking een vierkant om een ​​positief getal te krijgen.Deel de kwadratensom door N of n-1.Omdat we met de hele populatie werken, delen we door N. Als we met een steekproef van de populatie zouden werken, zouden we delen door n-1.Daar hebben we het!De variantie van onze populatie is 11.583.Het toepassen van n-1 op de formule wordt de correctie van Bessel genoemd, genoemd naar Friedrich Bessel.Wanneer we steekproeven gebruiken, moeten we de geschatte variantie voor de populatie berekenen.Als we N in plaats van n-1 voor de steekproef zouden gebruiken, zou de schatting vertekend zijn, waardoor de populatievariantie mogelijk zou worden onderschat.Door n-1 te gebruiken, wordt de variantieschatting groter, waardoor de variabiliteit in steekproeven wordt overschat, waardoor vertekeningen worden verminderd.Laten we de variantie herberekenen door te doen alsof de waarden uit een steekproef komen:Zoals we kunnen zien, is de variantie groter!Meer van Eric Hoe Word2Vec te oefenen voor NLP met PythonNu we de berekening met de hand hebben gedaan, kunnen we zien dat het erg vervelend zou zijn om deze voor een grote reeks waarden in te vullen.Gelukkig kan Python de berekening voor zeer grote gegevens gemakkelijk aan.We zullen twee methoden verkennen met Python:Als we beginnen met het schrijven van een functie voor berekeningsvariantie, denk dan eens terug aan de stappen die we hebben genomen bij het handmatig berekenen.We willen dat de functie twee parameters opneemt:Begin met het definiëren van de functie die de twee parameters inneemt.Voeg vervolgens logica toe om het populatiegemiddelde te berekenen.Zoek na het berekenen van het gemiddelde de verschillen met het gemiddelde voor elke waarde.U kunt dit in één regel doen met behulp van een lijstbegrip.Maak vervolgens het kwadraat van de verschillen en tel ze op.Bereken tot slot de variantie.Met behulp van een If/Else-statement kunnen we de parameter is_sample gebruiken.Als is_samplei waar is, berekent u de variantie met ( n-1).Als het onwaar is (de standaard), gebruik dan N:We kunnen de berekening testen met behulp van de reeks getallen die we met de hand hebben gekraakt:Hoewel we een functie kunnen schrijven om variantie in minder dan 10 regels code te berekenen, is er een nog eenvoudigere manier om variantie te vinden.Je kunt het in één regel code doen met Panda's.Laten we wat gegevens laden en een echt voorbeeld van het vinden van variantie doornemen.Het Pandas-voorbeeld maakt gebruik van de BMW Price Challenge-dataset van Kaggle, die gratis te downloaden is.Begin met het importeren van de Pandas-bibliotheek en lees vervolgens het CSV-bestand in een Pandas-dataframe:We kunnen het aantal rijen in de dataset tellen en de eerste vijf rijen weergeven om ervoor te zorgen dat alles correct wordt geladen:Aangezien de BMW-dataset 4843 rijen is, zou het niet leuk zijn om dat met de hand te berekenen.In plaats daarvan kunnen we eenvoudig de kolom van het dataframe in onze functie berekenen_variantie invoegen en de variantie retourneren.Laten we de variantie zoeken voor de numerieke kolommen kilometerstand, motorvermogen en prijs.In het geval dat we de variantieberekening vergeten en onze eigen functie niet kunnen schrijven, heeft Pandas een ingebouwde functie om variantie te berekenen met de naam var().Het gaat standaard uit van een steekproefpopulatie en gebruikt n-1 in de berekening;u kunt de berekening echter aanpassen door het argument ddof=0 door te geven.Zoals we kunnen zien, komt de functie Var() overeen met de waarden die worden geproduceerd door onze functie bereken_variantie , en het is slechts één regel code.Als we de resultaten bekijken, kunnen we zien dat de kilometerstand een hoge variantie heeft, wat betekent dat de waarden de neiging hebben om veel van het gemiddelde af te wijken.Dat is logisch, want veel factoren spelen een rol in de afstand die een persoon moet rijden.Ter vergelijking: engine_power heeft een lage variantie, wat aangeeft dat de waarden niet veel afwijken van het gemiddelde.Wat wil je hierna leren?Float gebruiken in Python (met voorbeeldcode!)Het begrijpen van variantie kan een belangrijk onderdeel zijn van data-analyse en machine learning, omdat je het kunt gebruiken om groepsverschillen te beoordelen.Variantie is ook van invloed op welke statistische tests ons kunnen helpen bij het nemen van gegevensgestuurde beslissingen.Hoge variantie betekent dat de waarden sterk afwijken van het gemiddelde, terwijl lage variantie betekent dat getallen niet wijd verspreid zijn van het gemiddelde.Als we een kleine set waarden hebben, is het mogelijk om de variantie met de hand te berekenen in slechts vijf stappen.Voor grote datasets zagen we hoe eenvoudig het is om variantie te berekenen met Python en Panda's.De functie Var() in Panda's berekent de variantie voor de numerieke kolommen in een gegevensframe in slechts één regel code, wat best handig is!Het netwerk van experts van Built In publiceert doordachte, oplossingsgerichte verhalen geschreven door innovatieve technische professionals.Het is de definitieve bestemming van de tech-industrie voor het delen van boeiende, first-person verhalen over het oplossen van problemen op weg naar innovatie.

crollTo(duration=200)" class="scrollToTop">Top